home *** CD-ROM | disk | FTP | other *** search
/ CU Amiga Super CD-ROM 19 / CU Amiga Magazine's Super CD-ROM 19 (1998)(EMAP Images)(GB)[!][issue 1998-02].iso / CUCD / Online / RFCs / rfc / rfc1808.txt < prev    next >
Text File  |  1995-10-17  |  35KB  |  900 lines

  1.  
  2.  
  3.  
  4.  
  5.  
  6.  
  7. Network Working Group                                        R. Fielding
  8. Request for Comments: 1808                                     UC Irvine
  9. Category: Standards Track                                      June 1995
  10.  
  11.  
  12.                    Relative Uniform Resource Locators
  13.  
  14. Status of this Memo
  15.  
  16.    This document specifies an Internet standards track protocol for the
  17.    Internet community, and requests discussion and suggestions for
  18.    improvements.  Please refer to the current edition of the "Internet
  19.    Official Protocol Standards" (STD 1) for the standardization state
  20.    and status of this protocol.  Distribution of this memo is unlimited.
  21.  
  22. Abstract
  23.  
  24.    A Uniform Resource Locator (URL) is a compact representation of the
  25.    location and access method for a resource available via the Internet.
  26.    When embedded within a base document, a URL in its absolute form may
  27.    contain a great deal of information which is already known from the
  28.    context of that base document's retrieval, including the scheme,
  29.    network location, and parts of the url-path.  In situations where the
  30.    base URL is well-defined and known to the parser (human or machine),
  31.    it is useful to be able to embed URL references which inherit that
  32.    context rather than re-specifying it in every instance.  This
  33.    document defines the syntax and semantics for such Relative Uniform
  34.    Resource Locators.
  35.  
  36. 1.  Introduction
  37.  
  38.    This document describes the syntax and semantics for "relative"
  39.    Uniform Resource Locators (relative URLs): a compact representation
  40.    of the location of a resource relative to an absolute base URL.  It
  41.    is a companion to RFC 1738, "Uniform Resource Locators (URL)" [2],
  42.    which specifies the syntax and semantics of absolute URLs.
  43.  
  44.    A common use for Uniform Resource Locators is to embed them within a
  45.    document (referred to as the "base" document) for the purpose of
  46.    identifying other Internet-accessible resources.  For example, in
  47.    hypertext documents, URLs can be used as the identifiers for
  48.    hypertext link destinations.
  49.  
  50.    Absolute URLs contain a great deal of information which may already
  51.    be known from the context of the base document's retrieval, including
  52.    the scheme, network location, and parts of the URL path.  In
  53.    situations where the base URL is well-defined and known, it is useful
  54.    to be able to embed a URL reference which inherits that context
  55.  
  56.  
  57.  
  58. Fielding                    Standards Track                     [Page 1]
  59.  
  60. RFC 1808           Relative Uniform Resource Locators          June 1995
  61.  
  62.  
  63.    rather than re-specifying it within each instance.  Relative URLs can
  64.    also be used within data-entry dialogs to decrease the number of
  65.    characters necessary to describe a location.
  66.  
  67.    In addition, it is often the case that a group or "tree" of documents
  68.    has been constructed to serve a common purpose; the vast majority of
  69.    URLs in these documents point to locations within the tree rather
  70.    than outside of it.  Similarly, documents located at a particular
  71.    Internet site are much more likely to refer to other resources at
  72.    that site than to resources at remote sites.
  73.  
  74.    Relative addressing of URLs allows document trees to be partially
  75.    independent of their location and access scheme.  For instance, it is
  76.    possible for a single set of hypertext documents to be simultaneously
  77.    accessible and traversable via each of the "file", "http", and "ftp"
  78.    schemes if the documents refer to each other using relative URLs.
  79.    Furthermore, document trees can be moved, as a whole, without
  80.    changing any of the embedded URLs.  Experience within the World-Wide
  81.    Web has demonstrated that the ability to perform relative referencing
  82.    is necessary for the long-term usability of embedded URLs.
  83.  
  84. 2.  Relative URL Syntax
  85.  
  86.    The syntax for relative URLs is a shortened form of that for absolute
  87.    URLs [2], where some prefix of the URL is missing and certain path
  88.    components ("." and "..") have a special meaning when interpreting a
  89.    relative path.  Because a relative URL may appear in any context that
  90.    could hold an absolute URL, systems that support relative URLs must
  91.    be able to recognize them as part of the URL parsing process.
  92.  
  93.    Although this document does not seek to define the overall URL
  94.    syntax, some discussion of it is necessary in order to describe the
  95.    parsing of relative URLs.  In particular, base documents can only
  96.    make use of relative URLs when their base URL fits within the
  97.    generic-RL syntax described below.  Although some URL schemes do not
  98.    require this generic-RL syntax, it is assumed that any document which
  99.    contains a relative reference does have a base URL that obeys the
  100.    syntax.  In other words, relative URLs cannot be used within
  101.    documents that have unsuitable base URLs.
  102.  
  103. 2.1.  URL Syntactic Components
  104.  
  105.    The URL syntax is dependent upon the scheme.  Some schemes use
  106.    reserved characters like "?" and ";" to indicate special components,
  107.    while others just consider them to be part of the path.  However,
  108.    there is enough uniformity in the use of URLs to allow a parser to
  109.    resolve relative URLs based upon a single, generic-RL syntax.  This
  110.    generic-RL syntax consists of six components:
  111.  
  112.  
  113.  
  114. Fielding                    Standards Track                     [Page 2]
  115.  
  116. RFC 1808           Relative Uniform Resource Locators          June 1995
  117.  
  118.  
  119.       <scheme>://<net_loc>/<path>;<params>?<query>#<fragment>
  120.  
  121.    each of which, except <scheme>, may be absent from a particular URL.
  122.    These components are defined as follows (a complete BNF is provided
  123.    in Section 2.2):
  124.  
  125.       scheme ":"   ::= scheme name, as per Section 2.1 of RFC 1738 [2].
  126.  
  127.       "//" net_loc ::= network location and login information, as per
  128.                        Section 3.1 of RFC 1738 [2].
  129.  
  130.       "/" path     ::= URL path, as per Section 3.1 of RFC 1738 [2].
  131.  
  132.       ";" params   ::= object parameters (e.g., ";type=a" as in
  133.                        Section 3.2.2 of RFC 1738 [2]).
  134.  
  135.       "?" query    ::= query information, as per Section 3.3 of
  136.                        RFC 1738 [2].
  137.  
  138.       "#" fragment ::= fragment identifier.
  139.  
  140.    Note that the fragment identifier (and the "#" that precedes it) is
  141.    not considered part of the URL.  However, since it is commonly used
  142.    within the same string context as a URL, a parser must be able to
  143.    recognize the fragment when it is present and set it aside as part of
  144.    the parsing process.
  145.  
  146.    The order of the components is important.  If both <params> and
  147.    <query> are present, the <query> information must occur after the
  148.    <params>.
  149.  
  150. 2.2.  BNF for Relative URLs
  151.  
  152.    This is a BNF-like description of the Relative Uniform Resource
  153.    Locator syntax, using the conventions of RFC 822 [5], except that "|"
  154.    is used to designate alternatives.  Briefly, literals are quoted with
  155.    "", parentheses "(" and ")" are used to group elements, optional
  156.    elements are enclosed in [brackets], and elements may be preceded
  157.    with <n>* to designate n or more repetitions of the following
  158.    element; n defaults to 0.
  159.  
  160.    This BNF also describes the generic-RL syntax for valid base URLs.
  161.    Note that this differs from the URL syntax defined in RFC 1738 [2] in
  162.    that all schemes are required to use a single set of reserved
  163.    characters and use them consistently within the major URL components.
  164.  
  165.  
  166.  
  167.  
  168.  
  169.  
  170. Fielding                    Standards Track                     [Page 3]
  171.  
  172. RFC 1808           Relative Uniform Resource Locators          June 1995
  173.  
  174.  
  175.    URL         = ( absoluteURL | relativeURL ) [ "#" fragment ]
  176.  
  177.    absoluteURL = generic-RL | ( scheme ":" *( uchar | reserved ) )
  178.  
  179.    generic-RL  = scheme ":" relativeURL
  180.  
  181.    relativeURL = net_path | abs_path | rel_path
  182.  
  183.    net_path    = "//" net_loc [ abs_path ]
  184.    abs_path    = "/"  rel_path
  185.    rel_path    = [ path ] [ ";" params ] [ "?" query ]
  186.  
  187.    path        = fsegment *( "/" segment )
  188.    fsegment    = 1*pchar
  189.    segment     =  *pchar
  190.  
  191.    params      = param *( ";" param )
  192.    param       = *( pchar | "/" )
  193.  
  194.    scheme      = 1*( alpha | digit | "+" | "-" | "." )
  195.    net_loc     =  *( pchar | ";" | "?" )
  196.    query       =  *( uchar | reserved )
  197.    fragment    =  *( uchar | reserved )
  198.  
  199.    pchar       = uchar | ":" | "@" | "&" | "="
  200.    uchar       = unreserved | escape
  201.    unreserved  = alpha | digit | safe | extra
  202.  
  203.    escape      = "%" hex hex
  204.    hex         = digit | "A" | "B" | "C" | "D" | "E" | "F" |
  205.                          "a" | "b" | "c" | "d" | "e" | "f"
  206.  
  207.    alpha       = lowalpha | hialpha
  208.    lowalpha    = "a" | "b" | "c" | "d" | "e" | "f" | "g" | "h" | "i" |
  209.                  "j" | "k" | "l" | "m" | "n" | "o" | "p" | "q" | "r" |
  210.                  "s" | "t" | "u" | "v" | "w" | "x" | "y" | "z"
  211.    hialpha     = "A" | "B" | "C" | "D" | "E" | "F" | "G" | "H" | "I" |
  212.                  "J" | "K" | "L" | "M" | "N" | "O" | "P" | "Q" | "R" |
  213.                  "S" | "T" | "U" | "V" | "W" | "X" | "Y" | "Z"
  214.  
  215.    digit       = "0" | "1" | "2" | "3" | "4" | "5" | "6" | "7" |
  216.                  "8" | "9"
  217.  
  218.    safe        = "$" | "-" | "_" | "." | "+"
  219.    extra       = "!" | "*" | "'" | "(" | ")" | ","
  220.    national    = "{" | "}" | "|" | "\" | "^" | "~" | "[" | "]" | "`"
  221.    reserved    = ";" | "/" | "?" | ":" | "@" | "&" | "="
  222.    punctuation = "<" | ">" | "#" | "%" | <">
  223.  
  224.  
  225.  
  226. Fielding                    Standards Track                     [Page 4]
  227.  
  228. RFC 1808           Relative Uniform Resource Locators          June 1995
  229.  
  230.  
  231. 2.3.  Specific Schemes and their Syntactic Categories
  232.  
  233.    Each URL scheme has its own rules regarding the presence or absence
  234.    of the syntactic components described in Sections 2.1 and 2.2.  In
  235.    addition, some schemes are never appropriate for use with relative
  236.    URLs.  However, since relative URLs will only be used within contexts
  237.    in which they are useful, these scheme-specific differences can be
  238.    ignored by the resolution process.
  239.  
  240.    Within this section, we include as examples only those schemes that
  241.    have a defined URL syntax in RFC 1738 [2].  The following schemes are
  242.    never used with relative URLs:
  243.  
  244.       mailto     Electronic Mail
  245.       news       USENET news
  246.       telnet     TELNET Protocol for Interactive Sessions
  247.  
  248.    Some URL schemes allow the use of reserved characters for purposes
  249.    outside the generic-RL syntax given above.  However, such use is
  250.    rare.  Relative URLs can be used with these schemes whenever the
  251.    applicable base URL follows the generic-RL syntax.
  252.  
  253.       gopher     Gopher and Gopher+ Protocols
  254.       prospero   Prospero Directory Service
  255.       wais       Wide Area Information Servers Protocol
  256.  
  257.    Users of gopher URLs should note that gopher-type information is
  258.    almost always included at the beginning of what would be the
  259.    generic-RL path.  If present, this type information prevents
  260.    relative-path references to documents with differing gopher-types.
  261.  
  262.    Finally, the following schemes can always be parsed using the
  263.    generic-RL syntax.  This does not necessarily imply that relative
  264.    URLs will be useful with these schemes -- that decision is left to
  265.    the system implementation and the author of the base document.
  266.  
  267.       file       Host-specific Files
  268.       ftp        File Transfer Protocol
  269.       http       Hypertext Transfer Protocol
  270.       nntp       USENET news using NNTP access
  271.  
  272.    NOTE: Section 5 of RFC 1738 specifies that the question-mark
  273.          character ("?") is allowed in an ftp or file path segment.
  274.          However, this is not true in practice and is believed to be an
  275.          error in the RFC.  Similarly, RFC 1738 allows the reserved
  276.          character semicolon (";") within an http path segment, but does
  277.          not define its semantics; the correct semantics are as defined
  278.          by this document for <params>.
  279.  
  280.  
  281.  
  282. Fielding                    Standards Track                     [Page 5]
  283.  
  284. RFC 1808           Relative Uniform Resource Locators          June 1995
  285.  
  286.  
  287.    We recommend that new schemes be designed to be parsable via the
  288.    generic-RL syntax if they are intended to be used with relative URLs.
  289.    A description of the allowed relative forms should be included when a
  290.    new scheme is registered, as per Section 4 of RFC 1738 [2].
  291.  
  292. 2.4.  Parsing a URL
  293.  
  294.    An accepted method for parsing URLs is useful to clarify the
  295.    generic-RL syntax of Section 2.2 and to describe the algorithm for
  296.    resolving relative URLs presented in Section 4.  This section
  297.    describes the parsing rules for breaking down a URL (relative or
  298.    absolute) into the component parts described in Section 2.1.  The
  299.    rules assume that the URL has already been separated from any
  300.    surrounding text and copied to a "parse string".  The rules are
  301.    listed in the order in which they would be applied by the parser.
  302.  
  303. 2.4.1.  Parsing the Fragment Identifier
  304.  
  305.    If the parse string contains a crosshatch "#" character, then the
  306.    substring after the first (left-most) crosshatch "#" and up to the
  307.    end of the parse string is the <fragment> identifier.  If the
  308.    crosshatch is the last character, or no crosshatch is present, then
  309.    the fragment identifier is empty.  The matched substring, including
  310.    the crosshatch character, is removed from the parse string before
  311.    continuing.
  312.  
  313.    Note that the fragment identifier is not considered part of the URL.
  314.    However, since it is often attached to the URL, parsers must be able
  315.    to recognize and set aside fragment identifiers as part of the
  316.    process.
  317.  
  318. 2.4.2.  Parsing the Scheme
  319.  
  320.    If the parse string contains a colon ":" after the first character
  321.    and before any characters not allowed as part of a scheme name (i.e.,
  322.    any not an alphanumeric, plus "+", period ".", or hyphen "-"), the
  323.    <scheme> of the URL is the substring of characters up to but not
  324.    including the first colon.  These characters and the colon are then
  325.    removed from the parse string before continuing.
  326.  
  327. 2.4.3.  Parsing the Network Location/Login
  328.  
  329.    If the parse string begins with a double-slash "//", then the
  330.    substring of characters after the double-slash and up to, but not
  331.    including, the next slash "/" character is the network location/login
  332.    (<net_loc>) of the URL.  If no trailing slash "/" is present, the
  333.    entire remaining parse string is assigned to <net_loc>.  The double-
  334.    slash and <net_loc> are removed from the parse string before
  335.  
  336.  
  337.  
  338. Fielding                    Standards Track                     [Page 6]
  339.  
  340. RFC 1808           Relative Uniform Resource Locators          June 1995
  341.  
  342.  
  343.    continuing.
  344.  
  345. 2.4.4.  Parsing the Query Information
  346.  
  347.    If the parse string contains a question mark "?" character, then the
  348.    substring after the first (left-most) question mark "?" and up to the
  349.    end of the parse string is the <query> information.  If the question
  350.    mark is the last character, or no question mark is present, then the
  351.    query information is empty.  The matched substring, including the
  352.    question mark character, is removed from the parse string before
  353.    continuing.
  354.  
  355. 2.4.5.  Parsing the Parameters
  356.  
  357.    If the parse string contains a semicolon ";" character, then the
  358.    substring after the first (left-most) semicolon ";" and up to the end
  359.    of the parse string is the parameters (<params>).  If the semicolon
  360.    is the last character, or no semicolon is present, then <params> is
  361.    empty.  The matched substring, including the semicolon character, is
  362.    removed from the parse string before continuing.
  363.  
  364. 2.4.6.  Parsing the Path
  365.  
  366.    After the above steps, all that is left of the parse string is the
  367.    URL <path> and the slash "/" that may precede it.  Even though the
  368.    initial slash is not part of the URL path, the parser must remember
  369.    whether or not it was present so that later processes can
  370.    differentiate between relative and absolute paths.  Often this is
  371.    done by simply storing the preceding slash along with the path.
  372.  
  373. 3.  Establishing a Base URL
  374.  
  375.    The term "relative URL" implies that there exists some absolute "base
  376.    URL" against which the relative reference is applied.  Indeed, the
  377.    base URL is necessary to define the semantics of any embedded
  378.    relative URLs; without it, a relative reference is meaningless.  In
  379.    order for relative URLs to be usable within a document, the base URL
  380.    of that document must be known to the parser.
  381.  
  382.  
  383.  
  384.  
  385.  
  386.  
  387.  
  388.  
  389.  
  390.  
  391.  
  392.  
  393.  
  394. Fielding                    Standards Track                     [Page 7]
  395.  
  396. RFC 1808           Relative Uniform Resource Locators          June 1995
  397.  
  398.  
  399.    The base URL of a document can be established in one of four ways,
  400.    listed below in order of precedence.  The order of precedence can be
  401.    thought of in terms of layers, where the innermost defined base URL
  402.    has the highest precedence.  This can be visualized graphically as:
  403.  
  404.       .----------------------------------------------------------.
  405.       |  .----------------------------------------------------.  |
  406.       |  |  .----------------------------------------------.  |  |
  407.       |  |  |  .----------------------------------------.  |  |  |
  408.       |  |  |  |   (3.1) Base URL embedded in the       |  |  |  |
  409.       |  |  |  |         document's content             |  |  |  |
  410.       |  |  |  `----------------------------------------'  |  |  |
  411.       |  |  |   (3.2) Base URL of the encapsulating entity |  |  |
  412.       |  |  |         (message, document, or none).        |  |  |
  413.       |  |  `----------------------------------------------'  |  |
  414.       |  |   (3.3) URL used to retrieve the entity            |  |
  415.       |  `----------------------------------------------------'  |
  416.       |   (3.4) Base URL = "" (undefined)                        |
  417.       `----------------------------------------------------------'
  418.  
  419. 3.1.  Base URL within Document Content
  420.  
  421.    Within certain document media types, the base URL of the document can
  422.    be embedded within the content itself such that it can be readily
  423.    obtained by a parser.  This can be useful for descriptive documents,
  424.    such as tables of content, which may be transmitted to others through
  425.    protocols other than their usual retrieval context (e.g., E-Mail or
  426.    USENET news).
  427.  
  428.    It is beyond the scope of this document to specify how, for each
  429.    media type, the base URL can be embedded.  It is assumed that user
  430.    agents manipulating such media types will be able to obtain the
  431.    appropriate syntax from that media type's specification.  An example
  432.    of how the base URL can be embedded in the Hypertext Markup Language
  433.    (HTML) [3] is provided in an Appendix (Section 10).
  434.  
  435.    Messages are considered to be composite documents.  The base URL of a
  436.    message can be specified within the message headers (or equivalent
  437.    tagged metainformation) of the message.  For protocols that make use
  438.    of message headers like those described in RFC 822 [5], we recommend
  439.    that the format of this header be:
  440.  
  441.       base-header  = "Base" ":" "<URL:" absoluteURL ">"
  442.  
  443.    where "Base" is case-insensitive and any whitespace (including that
  444.    used for line folding) inside the angle brackets is ignored.  For
  445.    example, the header field
  446.  
  447.  
  448.  
  449.  
  450. Fielding                    Standards Track                     [Page 8]
  451.  
  452. RFC 1808           Relative Uniform Resource Locators          June 1995
  453.  
  454.  
  455.       Base: <URL:http://www.ics.uci.edu/Test/a/b/c>
  456.  
  457.    would indicate that the base URL for that message is the string
  458.    "http://www.ics.uci.edu/Test/a/b/c".  The base URL for a message
  459.    serves as both the base for any relative URLs within the message
  460.    headers and the default base URL for documents enclosed within the
  461.    message, as described in the next section.
  462.  
  463.    Protocols which do not use the RFC 822 message header syntax, but
  464.    which do allow some form of tagged metainformation to be included
  465.    within messages, may define their own syntax for defining the base
  466.    URL as part of a message.
  467.  
  468. 3.2.  Base URL from the Encapsulating Entity
  469.  
  470.    If no base URL is embedded, the base URL of a document is defined by
  471.    the document's retrieval context.  For a document that is enclosed
  472.    within another entity (such as a message or another document), the
  473.    retrieval context is that entity; thus, the default base URL of the
  474.    document is the base URL of the entity in which the document is
  475.    encapsulated.
  476.  
  477.    Composite media types, such as the "multipart/*" and "message/*"
  478.    media types defined by MIME (RFC 1521, [4]), define a hierarchy of
  479.    retrieval context for their enclosed documents.  In other words, the
  480.    retrieval context of a component part is the base URL of the
  481.    composite entity of which it is a part.  Thus, a composite entity can
  482.    redefine the retrieval context of its component parts via the
  483.    inclusion of a base-header, and this redefinition applies recursively
  484.    for a hierarchy of composite parts.  Note that this might not change
  485.    the base URL of the components, since each component may include an
  486.    embedded base URL or base-header that takes precedence over the
  487.    retrieval context.
  488.  
  489. 3.3.  Base URL from the Retrieval URL
  490.  
  491.    If no base URL is embedded and the document is not encapsulated
  492.    within some other entity (e.g., the top level of a composite entity),
  493.    then, if a URL was used to retrieve the base document, that URL shall
  494.    be considered the base URL.  Note that if the retrieval was the
  495.    result of a redirected request, the last URL used (i.e., that which
  496.    resulted in the actual retrieval of the document) is the base URL.
  497.  
  498. 3.4.  Default Base URL
  499.  
  500.    If none of the conditions described in Sections 3.1 -- 3.3 apply,
  501.    then the base URL is considered to be the empty string and all
  502.    embedded URLs within that document are assumed to be absolute URLs.
  503.  
  504.  
  505.  
  506. Fielding                    Standards Track                     [Page 9]
  507.  
  508. RFC 1808           Relative Uniform Resource Locators          June 1995
  509.  
  510.  
  511.    It is the responsibility of the distributor(s) of a document
  512.    containing relative URLs to ensure that the base URL for that
  513.    document can be established.  It must be emphasized that relative
  514.    URLs cannot be used reliably in situations where the document's base
  515.    URL is not well-defined.
  516.  
  517. 4.  Resolving Relative URLs
  518.  
  519.    This section describes an example algorithm for resolving URLs within
  520.    a context in which the URLs may be relative, such that the result is
  521.    always a URL in absolute form.  Although this algorithm cannot
  522.    guarantee that the resulting URL will equal that intended by the
  523.    original author, it does guarantee that any valid URL (relative or
  524.    absolute) can be consistently transformed to an absolute form given a
  525.    valid base URL.
  526.  
  527.    The following steps are performed in order:
  528.  
  529.    Step 1: The base URL is established according to the rules of
  530.            Section 3.  If the base URL is the empty string (unknown),
  531.            the embedded URL is interpreted as an absolute URL and
  532.            we are done.
  533.  
  534.    Step 2: Both the base and embedded URLs are parsed into their
  535.            component parts as described in Section 2.4.
  536.  
  537.            a) If the embedded URL is entirely empty, it inherits the
  538.               entire base URL (i.e., is set equal to the base URL)
  539.               and we are done.
  540.  
  541.            b) If the embedded URL starts with a scheme name, it is
  542.               interpreted as an absolute URL and we are done.
  543.  
  544.            c) Otherwise, the embedded URL inherits the scheme of
  545.               the base URL.
  546.  
  547.    Step 3: If the embedded URL's <net_loc> is non-empty, we skip to
  548.            Step 7.  Otherwise, the embedded URL inherits the <net_loc>
  549.            (if any) of the base URL.
  550.  
  551.    Step 4: If the embedded URL path is preceded by a slash "/", the
  552.            path is not relative and we skip to Step 7.
  553.  
  554.  
  555.  
  556.  
  557.  
  558.  
  559.  
  560.  
  561.  
  562. Fielding                    Standards Track                    [Page 10]
  563.  
  564. RFC 1808           Relative Uniform Resource Locators          June 1995
  565.  
  566.  
  567.    Step 5: If the embedded URL path is empty (and not preceded by a
  568.            slash), then the embedded URL inherits the base URL path,
  569.            and
  570.  
  571.            a) if the embedded URL's <params> is non-empty, we skip to
  572.               step 7; otherwise, it inherits the <params> of the base
  573.               URL (if any) and
  574.  
  575.            b) if the embedded URL's <query> is non-empty, we skip to
  576.               step 7; otherwise, it inherits the <query> of the base
  577.               URL (if any) and we skip to step 7.
  578.  
  579.    Step 6: The last segment of the base URL's path (anything
  580.            following the rightmost slash "/", or the entire path if no
  581.            slash is present) is removed and the embedded URL's path is
  582.            appended in its place.  The following operations are
  583.            then applied, in order, to the new path:
  584.  
  585.            a) All occurrences of "./", where "." is a complete path
  586.               segment, are removed.
  587.  
  588.            b) If the path ends with "." as a complete path segment,
  589.               that "." is removed.
  590.  
  591.            c) All occurrences of "<segment>/../", where <segment> is a
  592.               complete path segment not equal to "..", are removed.
  593.               Removal of these path segments is performed iteratively,
  594.               removing the leftmost matching pattern on each iteration,
  595.               until no matching pattern remains.
  596.  
  597.            d) If the path ends with "<segment>/..", where <segment> is a
  598.               complete path segment not equal to "..", that
  599.               "<segment>/.." is removed.
  600.  
  601.    Step 7: The resulting URL components, including any inherited from
  602.            the base URL, are recombined to give the absolute form of
  603.            the embedded URL.
  604.  
  605.    Parameters, regardless of their purpose, do not form a part of the
  606.    URL path and thus do not affect the resolving of relative paths.  In
  607.    particular, the presence or absence of the ";type=d" parameter on an
  608.    ftp URL does not affect the interpretation of paths relative to that
  609.    URL.  Fragment identifiers are only inherited from the base URL when
  610.    the entire embedded URL is empty.
  611.  
  612.  
  613.  
  614.  
  615.  
  616.  
  617.  
  618. Fielding                    Standards Track                    [Page 11]
  619.  
  620. RFC 1808           Relative Uniform Resource Locators          June 1995
  621.  
  622.  
  623.    The above algorithm is intended to provide an example by which the
  624.    output of implementations can be tested -- implementation of the
  625.    algorithm itself is not required.  For example, some systems may find
  626.    it more efficient to implement Step 6 as a pair of segment stacks
  627.    being merged, rather than as a series of string pattern matches.
  628.  
  629. 5.  Examples and Recommended Practice
  630.  
  631.    Within an object with a well-defined base URL of
  632.  
  633.       Base: <URL:http://a/b/c/d;p?q#f>
  634.  
  635.    the relative URLs would be resolved as follows:
  636.  
  637. 5.1.  Normal Examples
  638.  
  639.       g:h        = <URL:g:h>
  640.       g          = <URL:http://a/b/c/g>
  641.       ./g        = <URL:http://a/b/c/g>
  642.       g/         = <URL:http://a/b/c/g/>
  643.       /g         = <URL:http://a/g>
  644.       //g        = <URL:http://g>
  645.       ?y         = <URL:http://a/b/c/d;p?y>
  646.       g?y        = <URL:http://a/b/c/g?y>
  647.       g?y/./x    = <URL:http://a/b/c/g?y/./x>
  648.       #s         = <URL:http://a/b/c/d;p?q#s>
  649.       g#s        = <URL:http://a/b/c/g#s>
  650.       g#s/./x    = <URL:http://a/b/c/g#s/./x>
  651.       g?y#s      = <URL:http://a/b/c/g?y#s>
  652.       ;x         = <URL:http://a/b/c/d;x>
  653.       g;x        = <URL:http://a/b/c/g;x>
  654.       g;x?y#s    = <URL:http://a/b/c/g;x?y#s>
  655.       .          = <URL:http://a/b/c/>
  656.       ./         = <URL:http://a/b/c/>
  657.       ..         = <URL:http://a/b/>
  658.       ../        = <URL:http://a/b/>
  659.       ../g       = <URL:http://a/b/g>
  660.       ../..      = <URL:http://a/>
  661.       ../../     = <URL:http://a/>
  662.       ../../g    = <URL:http://a/g>
  663.  
  664. 5.2.  Abnormal Examples
  665.  
  666.    Although the following abnormal examples are unlikely to occur in
  667.    normal practice, all URL parsers should be capable of resolving them
  668.    consistently.  Each example uses the same base as above.
  669.  
  670.  
  671.  
  672.  
  673.  
  674. Fielding                    Standards Track                    [Page 12]
  675.  
  676. RFC 1808           Relative Uniform Resource Locators          June 1995
  677.  
  678.  
  679.    An empty reference resolves to the complete base URL:
  680.  
  681.       <>            = <URL:http://a/b/c/d;p?q#f>
  682.  
  683.    Parsers must be careful in handling the case where there are more
  684.    relative path ".." segments than there are hierarchical levels in the
  685.    base URL's path.  Note that the ".." syntax cannot be used to change
  686.    the <net_loc> of a URL.
  687.  
  688.       ../../../g    = <URL:http://a/../g>
  689.       ../../../../g = <URL:http://a/../../g>
  690.  
  691.    Similarly, parsers must avoid treating "." and ".." as special when
  692.    they are not complete components of a relative path.
  693.  
  694.       /./g          = <URL:http://a/./g>
  695.       /../g         = <URL:http://a/../g>
  696.       g.            = <URL:http://a/b/c/g.>
  697.       .g            = <URL:http://a/b/c/.g>
  698.       g..           = <URL:http://a/b/c/g..>
  699.       ..g           = <URL:http://a/b/c/..g>
  700.  
  701.    Less likely are cases where the relative URL uses unnecessary or
  702.    nonsensical forms of the "." and ".." complete path segments.
  703.  
  704.       ./../g        = <URL:http://a/b/g>
  705.       ./g/.         = <URL:http://a/b/c/g/>
  706.       g/./h         = <URL:http://a/b/c/g/h>
  707.       g/../h        = <URL:http://a/b/c/h>
  708.  
  709.    Finally, some older parsers allow the scheme name to be present in a
  710.    relative URL if it is the same as the base URL scheme.  This is
  711.    considered to be a loophole in prior specifications of partial URLs
  712.    [1] and should be avoided by future parsers.
  713.  
  714.       http:g        = <URL:http:g>
  715.       http:         = <URL:http:>
  716.  
  717. 5.3.  Recommended Practice
  718.  
  719.    Authors should be aware that path names which contain a colon ":"
  720.    character cannot be used as the first component of a relative URL
  721.    path (e.g., "this:that") because they will likely be mistaken for a
  722.    scheme name.  It is therefore necessary to precede such cases with
  723.    other components (e.g., "./this:that"), or to escape the colon
  724.    character (e.g., "this%3Athat"), in order for them to be correctly
  725.    parsed.  The former solution is preferred because it does not affect
  726.    the absolute form of the URL.
  727.  
  728.  
  729.  
  730. Fielding                    Standards Track                    [Page 13]
  731.  
  732. RFC 1808           Relative Uniform Resource Locators          June 1995
  733.  
  734.  
  735.    There is an ambiguity in the semantics for the ftp URL scheme
  736.    regarding the use of a trailing slash ("/") character and/or a
  737.    parameter ";type=d" to indicate a resource that is an ftp directory.
  738.    If the result of retrieving that directory includes embedded relative
  739.    URLs, it is necessary that the base URL path for that result include
  740.    a trailing slash.  For this reason, we recommend that the ";type=d"
  741.    parameter value not be used within contexts that allow relative URLs.
  742.  
  743. 6.  Security Considerations
  744.  
  745.    There are no security considerations in the use or parsing of
  746.    relative URLs.  However, once a relative URL has been resolved to its
  747.    absolute form, the same security considerations apply as those
  748.    described in RFC 1738 [2].
  749.  
  750. 7.  Acknowledgements
  751.  
  752.    This work is derived from concepts introduced by Tim Berners-Lee and
  753.    the World-Wide Web global information initiative.  Relative URLs are
  754.    described as "Partial URLs" in RFC 1630 [1].  That description was
  755.    expanded for inclusion as an appendix for an early draft of RFC 1738,
  756.    "Uniform Resource Locators (URL)" [2].  However, after further
  757.    discussion, the URI-WG decided to specify Relative URLs separately
  758.    from the primary URL draft.
  759.  
  760.    This document is intended to fulfill the recommendations for Internet
  761.    Resource Locators as stated in [6].  It has benefited greatly from
  762.    the comments of all those participating in the URI-WG.  Particular
  763.    thanks go to Larry Masinter, Michael A. Dolan, Guido van Rossum, Dave
  764.    Kristol, David Robinson, and Brad Barber for identifying
  765.    problems/deficiencies in earlier drafts.
  766.  
  767. 8.  References
  768.  
  769.    [1] Berners-Lee, T., "Universal Resource Identifiers in WWW: A
  770.        Unifying Syntax for the Expression of Names and Addresses of
  771.        Objects on the Network as used in the World-Wide Web", RFC 1630,
  772.        CERN, June 1994.
  773.  
  774.    [2] Berners-Lee, T., Masinter, L., and M. McCahill, Editors, "Uniform
  775.        Resource Locators (URL)", RFC 1738, CERN, Xerox Corporation,
  776.        University of Minnesota, December 1994.
  777.  
  778.    [3] Berners-Lee T., and D. Connolly, "HyperText Markup Language
  779.        Specification -- 2.0", Work in Progress, MIT, HaL Computer
  780.        Systems, February 1995.
  781.        <URL:http://www.ics.uci.edu/pub/ietf/html/>
  782.  
  783.  
  784.  
  785.  
  786. Fielding                    Standards Track                    [Page 14]
  787.  
  788. RFC 1808           Relative Uniform Resource Locators          June 1995
  789.  
  790.  
  791.    [4] Borenstein, N., and N. Freed, "MIME (Multipurpose Internet Mail
  792.        Extensions): Mechanisms for Specifying and Describing the Format
  793.        of Internet Message Bodies", RFC 1521, Bellcore, Innosoft,
  794.        September 1993.
  795.  
  796.    [5] Crocker, D., "Standard for the Format of ARPA Internet Text
  797.        Messages", STD 11, RFC 822, UDEL, August 1982.
  798.  
  799.    [6] Kunze, J., "Functional Recommendations for Internet Resource
  800.        Locators", RFC 1736, IS&T, UC Berkeley, February 1995.
  801.  
  802. 9.  Author's Address
  803.  
  804.    Roy T. Fielding
  805.    Department of Information and Computer Science
  806.    University of California
  807.    Irvine, CA  92717-3425
  808.    U.S.A.
  809.  
  810.    Tel: +1 (714) 824-4049
  811.    Fax: +1 (714) 824-4056
  812.    EMail: fielding@ics.uci.edu
  813.  
  814. 10.  Appendix - Embedding the Base URL in HTML documents
  815.  
  816.    It is useful to consider an example of how the base URL of a document
  817.    can be embedded within the document's content.  In this appendix, we
  818.    describe how documents written in the Hypertext Markup Language
  819.    (HTML) [3] can include an embedded base URL.  This appendix does not
  820.    form a part of the relative URL specification and should not be
  821.    considered as anything more than a descriptive example.
  822.  
  823.    HTML defines a special element "BASE" which, when present in the
  824.    "HEAD" portion of a document, signals that the parser should use the
  825.    BASE element's "HREF" attribute as the base URL for resolving any
  826.    relative URLs.  The "HREF" attribute must be an absolute URL.  Note
  827.    that, in HTML, element and attribute names are case-insensitive.  For
  828.    example:
  829.  
  830.       <!doctype html public "-//IETF//DTD HTML//EN">
  831.       <HTML><HEAD>
  832.       <TITLE>An example HTML document</TITLE>
  833.       <BASE href="http://www.ics.uci.edu/Test/a/b/c">
  834.       </HEAD><BODY>
  835.       ... <A href="../x">a hypertext anchor</A> ...
  836.       </BODY></HTML>
  837.  
  838.  
  839.  
  840.  
  841.  
  842. Fielding                    Standards Track                    [Page 15]
  843.  
  844. RFC 1808           Relative Uniform Resource Locators          June 1995
  845.  
  846.  
  847.    A parser reading the example document should interpret the given
  848.    relative URL "../x" as representing the absolute URL
  849.  
  850.       <URL:http://www.ics.uci.edu/Test/a/x>
  851.  
  852.    regardless of the context in which the example document was obtained.
  853.  
  854.  
  855.  
  856.  
  857.  
  858.  
  859.  
  860.  
  861.  
  862.  
  863.  
  864.  
  865.  
  866.  
  867.  
  868.  
  869.  
  870.  
  871.  
  872.  
  873.  
  874.  
  875.  
  876.  
  877.  
  878.  
  879.  
  880.  
  881.  
  882.  
  883.  
  884.  
  885.  
  886.  
  887.  
  888.  
  889.  
  890.  
  891.  
  892.  
  893.  
  894.  
  895.  
  896.  
  897.  
  898. Fielding                    Standards Track                    [Page 16]
  899.  
  900.